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Introduction 


Series numeriques 
® Variables discretes / continues 

• Representation graphique 

• Statistiques 


Deux series numeriques 

• Statistiques 

• Regression : Introduction 

• QQ-plots 


Objectifs 

® Definir les quantites statistiques basiques 
® Presenter les outils graphiques de la stat. descriptive 
On travaillera sur le jeu de donnees xi, . . . , x„ sans faire d'hypothese a priori 
I'existence eventuelle d'un modele probabiliste sous-jacent 



2. Series numeriques 



L’objet de base = les donnees 

Dans ce premier cours, on considere le cas x; 6 R 
On parle de serie numerique. 


On distinguera deux types de variables 
a les variables discretes 

► On dit qu 'une serie numerique correspond a une variable discrete si le 
nombre de valeurs differentes prises par Xi, . . . , x„ est petit devant n 

a les variables continues 

► les autres, typiquement xi, ... ,x n correspond a n valeurs distinctes. 



Histogrammes 


L’histogramme represente graphiquement le nombre de donnees par unite/bloc 
® Histogramme, cas discret 



Remarque : L 'histogramme normalise est donne par h(x) = - l x -x; ■ 



Histogrammes 




Histogrammes, choix du nombre de classes 


Les choix de k et de la partition /i . . . . , /j, sont delicats. 
Souvent, on prend 

® Une partition uniforme 

® On cherche a avoir au moins 5 points par intervalle 


Li A li. 























Statistiques 


Une statistique est une fonction des donnees, a valeurs dans R p 
S(xi, . . . ,x„) 6 R p 

Exemple S(xi . . . . , x„) = max(xi , . . . , x„) 

Les statistiques sont des aspects des donnees 

Idealement, on cherche un petit nombre de statistiques qui va resumer 
donnees xi, . . . ,x„. On distingue les 
• statistiques de position 
® statistiques de dispersion 
» statistiques d'ordre (et quantiles) 



Statistiques de position de xi, . . . ,x„ 


Moyenne x 


x> 


Mediane Med x C'est un nombre m qui separe les donnees rangees dans I’ordre 
deux ensembles de meme taille. 

*(l) < *(2) < • ■ • I • • ■ < x (n-l) < *(„) 


» n = 2p + 1 impair x {1) < . . . x (p) < x (p+1) < x (p+2) < . . < x (2p+1) 
Med x = x (p+1) 

* n = 2p pair x (1) < . . . < x (p) < m < x (p+1) < . . . < x (2p) 

aa+M 

2 


Remarque. Lorsque n est pair, il y a en general plusieurs nombres qui 
conviennent. Le choix ci-dessus est habituel. 



Exercices et exemples 


Mode Mode x (pour des donnees discretes) C'est la valeur la plus frequente a 
sein des donnees. 



Exercices et exemples 


Mode Mode x (pour des donnees discretes) C'est la valeur la plus frequente a 
sein des donnees. 


Exercice. Calculer moyenne, mediane et mode de 


s = (-2, -1,0, 5, 8) 

= (-4, 1,-3, 5, 3, 3, -3, 6) 
x= (1,1, 2, 3, 3, 3, 3, 9, 20) 



Exercices et exemples 


Mode Mode x (pour des donnees discretes) C'est la valeur la plus frequente a 
sein des donnees. 


Exercice. Calculer moyenne, mediane et mode de 

S = (-2, -1,0, 5, 8) 
t= (-4, 1,-3, 5, 3, 3, -3, 6) 
x= (1,1, 2, 3, 3, 3, 3, 9, 20) 
s = 2 Med x = 0 Mode x = - 
t = 1 Med x = 2 Mode x = — 
x = 5 Med x = 3 Mode x = 3 



Exercices et exemples 


Mode Mode x (pour des donnees discretes) C'est la valeur la plus frequente a 
sein des donnees. 

Exercice. Calculer moyenne, mediane et mode de 

S = (-2, -1,0, 5, 8) 
t= (-4, 1,-3, 5, 3, 3, -3, 6) 
x= (1,1, 2, 3, 3, 3, 3, 9, 20) 
s = 2 Med x = 0 Mode x = - 
t = 1 Med x = 2 Mode x = — 
x = 5 Medx = 3 Mode x = 3 

Illustration phenomene moyenne/mediane 

® Salaire net moyen 2008 en France : 2069 euros/mois 
® Salaire net median 2008 en France : 1655 euros/mois 



Exemple 


• Exemple : moyenne/mediane pour un echantillon de loi de Cauchy 


Exemple : Loi de Cauchy 
n = 50 

xi,. . . ,x„ tires 
selon une loi C( 0, 1) 



Exemple 


• Exemple : moyenne/mediane pour un echantillon de loi de Cauchy 


s- 

Exemple : Loi de Cauchy 


n = 50 


xi, . . . ,x„ tires 
selon une loi C(0, 1) 


Moyenne = 4.54 
Mediane = 0.27 



Statistiques de dispersion de x 1; . . . ,x n 


Variance v x 


I >~*) 2 


Premier quartile Qi : mediane des donnees < Med x 
Troisieme quartile Q3 : mediane des donnees > Med x 
Ecart inter-quartile : O3 — Oi 

Remarque : Le deuxieme quartile est la mediane des donnees 



Exercice 1 : Moyenne et mediane d echantillons 

Exercice 2 : Lesquelles des quantites precedentes sont invariantes par permutation 
des donnees, par translation des donnees d'une meme quantite fj. ? Que 
deviennent-elles si on multiplie les donnees par A > 0 ? 

Exercice 3 : Distribution exactement symetrique 

On dit que xi, . . . ,x„ est (exactement) symetrique par rapport au reel fj. si 
Va > 0, la frequence de fj, + a est egale a celle de \i — a. 

Calculer la moyenne et la mediane d'une serie symetrique par rapport a ft. 



Statistiques d'ordre et quantiles de xi, . . . ,x r 


II est souvent utile de ranger les donnees dans I’ordre 



II existe une permutation c 6 r t„ telle que 

M l) S x ct(2) < •< x CT(n) 

On note xr la statistique d'ordre de rang k. 



Statistiques d'ordre et quantiles de xi, . . . ,x r 




Box plots (boTtes a moustaches) 


Un resume pratique des donnees xi, . . . , x„ est donne par 
9 Med x , la mediane de I’echantillon 
9 Qi, (?3, premier et troisieme quartiles 

9 A, B limites en dehors desquelles les donnees seront considerees comme 
aberrantes ("atypiques" , "outliers"). Souvent, 

4 = min{x; : x ; > <?i - 1.5(Q 3 - Qi)} 

B = max{x ; : x ; < C? 3 + l-5(0 3 - Oi) 



Interets 

9 Resume des donnees 
9 Comparaison d’echantillons 



Box plots (boTtes a moustaches) 




Box plots, exemples 



Exemple 1 : loi de Cauchy 


tires 

selon une loi C(0, 1) 



Comparaison de deux series numeriques 


On dispose de deux series Xi, . . . ,x„ et yi, . . . ,y„ qu’on veut comparer 
Exemples 

a Etude du "lien" eventuel entre x et y 

► Taille et poids d'un meme individu 

► Temperature et niveau de pollution a Paris un meme jour 

a Savoir si x proche d'une distribution theorique donnee (ex. normale) 



Covariance et correlation 





Covariance et correlation 





Covariance et correlation 


La covariance des series xi, ... ,x„ et yi, ... ,y n notee s x ,y est 

sx,y = - n it(xi -*)(*-?) 

Le coefficient de correlation lineaire p x ,y de xi, . . . ,x„ et yi, ... ,y n est 

Pxy = 


Pour toutes series x et y, 

-1 < Pxy < 1 

Cas d'egalite : \pxy\ = 1 si et seulement si les series sont reliees par un relation 
affine : il existe a, b avec X; = ay, + b pour tout i = 1, . . . , n. 




Covariance et correlation 


Exercice : Demontrer la Proposition 




Nuage de points 


Le nuage de points associe aux series Xi, . . . ,x n et yi, . . . ,y n est la representation 
des points de coordonnees (x,-,y;) dans le plan. 


Parfois, on effectue un transformation prealable des donnees 
Exemple : nuage de points (log(x,), log(y,)) 



Droite de regression 


Pour un nuage de points (x;, y;); = i n , notons 
® Mi le point de coordonnees (x;,y,) 

® A la droite d'equation y = ax + b 
® M. le point de coordonnees (x;, ax; + b) 
(projection verticale de M; sur la droite A) 



C’est la droite qui minimise la quantite 


d(M;, Ml) 2 , 

avec d(M, N) distance euclidienne entre les points M et N. 



Droite de regression, exemple 



Droite de regression, exemple 



Droite de regression 


L'equation de la droite de regression de Y sur X est donnee par y = ax + 

Q Interpreter geometriquement le coefficient b 
Q Demontrer la proposition 

O Les droites de regression de Y sur X et de X sur V coincident-elles 



Droite de regression, exemple 



Droite de regression, exemple 



QQ-plots 


Premier cas : On cherche a repondre a la question 

"Les series xi, . . . ,x„ et yi, . . . ,y n suivent-elles la meme ‘distribution’ ?" 

Le QQ-plot est dans ce cas le nuage de points (qj,q?), ou les qj^q? sont 
suite de quantiles de y et x. 

Deuxieme cas : On cherche a repondre a la question 

"La serie observee xi, . . . ,x„ se represente-t-elle bien par une certaine loi 

theorique ?" 

Le QQ-plot est dans ce cas le nuage de points (q?, qj*), ou les qj , q? sont 
suite de quantiles resp. de la loi theorique et des donnees x. 



Donnees precedentes "droite de regression" 

y = ax+b + 2e, e ~ JV(0, 1) 




Donnees precedentes "droite de regression" 

y = ax+b + 2e, e ~ JV(0, 1) 







Exemple : loi normale 

Echantillon xi, . . . ,x„ 
de loi A/”(0, 1) 

QQ-plot 

Comparaison a la loi 
theorique Af(0, 1) 




Exercice : Repartition du PIB/habitant 
Faire I'Exercice 1.1 du polycopie 




